低容量WAKLMANに最適なビットレートとファイル形式の客観的考察

2014年7月修正

<はじめに>低容量のWALKMANに、可能な限り多くの曲を入れつつ最善の音質で取り込みたい時、ビットレートの大きさで悩みます。この悩みを解消すべく、音楽的に素人の私にとって、CD音源との違いを聞き分けられるビットレートの境界を検討しました。私の耳は普通だと思いますので、この検討は多くの方々にも当てはまると思います。
結論を先に言ってしまうと、どのファイル形式でも128kbpsでCD同等に聞こえるであろうことを以下の実験で知りました。しかし、メーカーは最大320bpsとか352bpsとかの高ビットレートを用意しています。思うにこれは、「わかった風のうるさいユーザー対策」だと思います。例えばmp3の320kbpsの中身の60%は、「普通の人間には聞こえない音」ですので。
とは言え、その聞こえない音にこそ感動が隠れているかもしれませんので、容量に余裕があれば、より高いビットレートで取り込みたいところです。以降、各種圧縮形式で、CD同等に聞こえる境界ビットレートを客観的に示す努力をしました。また、ついでに、WALKMANでギャップレス再生が可能な圧縮形式も検討してみました。
ビットレート実験資料はここからダウンロード

<検討する圧縮形式とビットレート範囲>
@mp3(96kbps〜320kbps) Aatrac3plus[.oma](48kbps〜352kbps) Bwma(48kbps〜192kbps) Caac(80kbp〜320kbps) Dhe-aac(32kbps〜96kbps)

<検討の構成>
検討1:単純に聴き比べる
検討2:各圧縮形式において、「削除された音」を再現し聞き比べる。
(検討2-@:「高音域で削除された音」の聞き比べ。)
(検討2-A:CD音源と圧縮ファイルとの「差分」の聞き比べ)
検討3:SONYが発表している「ATRACの音質評価」についての評価
検討4:Walkmanに適切なファイル形式は?(ギャップレス再生対応の圧縮形式)
結論
評論

<検討環境>
再生機器 walkman-nw-s765(2011年10月発売) パソコン-vaio-vgn-ns50b walkman-nw-f887(2013年10月19日発売)
イヤホン  メインboss-ie2 サブsony-mdr-ex082
<検討楽曲>
music1-Mr.children-volero-tomorrow never knows(remix)
music2-dreams come true-diamond15-今も
music3 yo-yo-ma カンタータ第147番 
<使用ソフト>
X-アプリ(5.1.00.09261) audacity
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
<検討1>実際に聴き比べをし、最適ビットレートを考える

○実験1(先入観の下での聴き比べ)
まずは純粋に、ビットレートを確認しながらドリカムさんの「今も」を聴きました。atracの48kbps〜352kbpsとatrac-advanced-lossless(=CD音源同等)を聴き比べてみました。恥を忍んでこの時の感想を述べますが、atrac352kbpsが一番つややかで、音が広々としていて、大変気持ちのいい音でした。感激のあまり涙がでました。「atrac-advanced-lossless」はほぼ同等ながら若干曇って感じて、あとはビットレートが低くなるにつれ、どんどん粗い音、薄い音に感じました。192kbpsに至っては、アーティストに失礼なので廃止すべきとも思いました。この時は随分音の分かる男のつもりになっていましたが、次の実験で明らかにしますが、先入観による「気のせい」でした。

○実験2(先入観を排除したランダム化比較による聴き比べ)
「先入観」と「気のせい」を排除するための工夫をしたうえで聞き比べます。これにより、本当に聞き分けられているかを判別できます。
ここでの方法は、同じ曲の「無圧縮WAV」と「Atrac-352kbps」と「聞き分けられてるか知りたいビットレート」の計3曲をシャッフル再生で聴き、音の違いが本当に分かってるのかを確認します。曲名にビットレートを追記して見やすくし、該当するビットレートだと思ったところで再生画面を確認します。これを10回繰り返し正解率を見ます。なお、偶然10回正解してしまう確率は、59049分の1です。
シャッフル再生なので、次の曲の予測ができませんから、先入観は全く排除されます。
もし本当にその音を聞き分けられていれば、正解率は限りなく100%。そうでなければ、聞き分けられていない事になります。
以降、この方法を「ランダム化比較聞き比べ」とか「盲検法による聞き比べ」と表現します。
そして僕の試験結果は以下の通りでした。
※音の表現ルールとして、明らかな違いは具体的に記述し、連続して比べると判別できるが単一で聞いたら判別が難しい程度を「若干」と表現し、息切れするほど集中しないと判別できないものや全く判別できないものを判別不可と表現します。

 mp3 MP3-96kbps  MP3-112kbps  MP3-128kbps
 music1(バンド演奏)  シンバルの高いところが全然出ていない   判別不可 -
 music2(バラード)   判別不可   判別不可 -
 music3(クラシック)  弦をはじく音が若干弱い   判別不可 -
 atrac[.oma]  Atrac-48kbps Atrac-64kbps   Atrac-96kbps Atrac-128kbps 
music1(バンド演奏)  高音が若干出ていない    判別不可  判別不可  判別不可
 music2(バラード)   判別不可   判別不可  判別不可  判別不可
 music3(クラシック)   弦を弾く音がひどくこもっている  弦を弾く音がかなり弱い  弦を弾く音がが若干弱い  判別不可
 wma wma-48  wma-64  wma-96 
music1(バンド演奏) シンバルの高いところが若干出ていない  シンバルの高いところが若干出てない   判別不可
 music2(バラード) 判別不可  判別不可  判別不可 
 music3(クラシック) 判別不可  判別不可  判別不可 
 aac  aac-80 aac-96 
 music1(バンド演奏) 判別不可 
music2(バラード)  判別不可 
music3(クラシック)  判別不可 
 he-aac  he-aac-32kbps he-aac-40  he-aac-48 he-aac-64 
music1(バンド演奏)  シンバルの高いところが出ていない。電子音    左に同じ  左に同じ  判別不可
 music2(バラード)  電子音   電子音  判別不可  判別不可
 music3(クラシック)   電子音  電子音  弦を弾く音が若干弱い  判別不可

○検討1の評価
以上により分かったことは、同じビットレートであっても曲調により聞こえ方にバラつきがあった。
mp3を基準に考えると、atracは高音再現に特化するも中低音域ではmp3と同等。wmaはmp3と比べ全帯域で上回っている。さらに、aac、he-aacはそのwmaよりももっと良い結果が得られた。
聴覚的に評価した場合、「CD同等音質」=「mp3:112kbps」=「atrac:128kbps」=「wma:96kbps」=「aac:80kbps」=「he-aac:64kbps」となった。

ここで、実験1において、どうして「分かった気」になってしまったのか考察してみます。
一つ気づいたことは、一つの曲の中に共存する「良い音」と「悪い音」からの誤解です。例えば、ある場面は音がこもっていたりして聴きにくいけど、逆に別の場面は伸びやかで気持ち良かったりするところがあると思います。人間の作るものだから、均一に良質とは限りません。低いビットレートで聴いているときは、どうしてもアラを探してしまうので、その「悪い音」に注意してしまい、悪い音と認識してしまう。逆に、高ビットレートで聴いているときは、良いところを見つけようとするから「良い音」が耳についてしまい、結果、高ビットレートは音がいいとなってしまうんではないだろうか。
ネットで検索しても、分かった風な人が、数日前の僕のように「高ビットレートの音質は、艶やかで広がりがあり、シルキーな味わいだ。とか。それにくらべ、低ビットレートの音質は、粗く、高音域に閉そく感があり、薄い感じがします」みたいな表現をしていますが、実はこの方々も気のせいでものをいってるんではないだろうか。自分が聞き分けられない事を棚に挙げて申し訳ないが、この実験でそんな疑念が沸きました。

というわけで皆さんにテストです。ビットレートの違いがわかるかどうか簡単に判断できるサイトを見つけました。mp3の128kbpsと320kbpsの曲がランダムに流れます。
http://mp3ornot.com/index.php


・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
<検討2>それぞれの圧縮形式において、削除された音を再現して聞き比べる。
(@-高音域で削除された音 A-CD音源との差分)


@mp3の解析

@−@ mp3の高音域で削除された音の再現
圧縮されている高音域を再現して聞き比べたいと思います。
まずは以下に、tomorrow never knows(remix)のWAVとMP3形式の各ビットレートでの2分00秒時点から(サンプリング範囲5秒)の周波数分析を並べます。この曲は、噂によると生演奏であるということで、何となく実験向きかなと安易な理由で採用しました。

  

  

  

これら周波数の波形を見比べると、
WAV1141kbps(CD音源)は22kHzぐらいまで音が出ています。
192kbps〜320kbpsでは20.5kHzから上がそぎ落とされている。
160kbpsでは20khzから上でそぎ落とされている。
112kbpsでは、13.5kHzから上が削除されている。
98kbpsでは11.4kHzから上が削除されている。
98kbpsだけ全体の音圧が抑制されているが、それ以外のすべての波形で11kHz以下に変化はない。
直観的に、高音域がこんなにごっそり削除されてたら音も悪くなると思われがちでしょうが、削除対象はいわゆる「モスキート音」です。

これを表にまとめると以下の通り。

mp3  削除された音域 
 192〜320kbps  20.5kHz以上
 160kbps  20kHz以上
 128kbps  15.8kHz以上
 112kbps  13.5kHz以上
 96kbps  11.4kHz以上

次に、先に用意した曲調の違う3つのサンプルから、それぞれ「削除された音」を抽出していきたいと思う。
左からmusic1(バンド演奏)・music2(バラード)・music3(クラシック)の順で並んでいる。
再生ボタンをクリックすると音が聴けます。まず3つのサンプルのCD音源を確認してほしい。

    

この音源サンプルから削除された音を抽出再現していきたい。

まず11.4khz以上を抽出してみます。
その方法の説明。audacityを用い、「エフェクト」→「イコライゼイション」→「カーブの描画」をチェックして、11.4kHzから下を最大限(50db=0.003倍)絞り「OK」を押す。これにより11.4kHzから下は聞えなくなります。


さあ、11.4kHz以上の音を抽出できました。mp3-96kbpsで削除された高音域の音です。
左からmusic1・music2・music3の順です。再生ボタンで音が聞けます。
    

music1では「チッチチッチ」頭に刺さる音が鳴っています。検討1における「シンバルの高い音の不足」を感じた原因だと思われます。
music2でもかすかに頭に刺さる音が鳴っています。
music3でも弦を弾く音が感じられ、検討1での音の不足感はこれが原因かと思われます。

music1CD音源からこの「チッチチッチ」を削除してみたらどのように聞こえるかを確認してみる。
「music1CD音源」(クリックで再生)
「11.4khz以上を削除したmusic1」(クリックで再生)
11.4khz以上を削除してしまうと、明らかに高音が鳴っていないことがわかる。

次に13.5khz以上を抽出します。これはMP3−112kbpsの高音域で圧縮されている音です。(music2・music3の言及をここからしてない理由を覚えていないが何も聞こえなかったのだと思う)
    

music1においては、かすかに頭にツンツンくる音を感じます。
music1CD音源から、この「かすかに頭にツンツンくる音」を削除した場合の音を聴き比べます。
「music1CD音源」
「13.5kHz以上を削除したmusic1」
「かすかに頭にツンツンくる音」を聞いた後に「13.5khz以上を削除したmusic1」を聞くと、なんとなく高音が若干弱い気がしましたが、盲検法により聞き比べると違いを判別できません。13.5khz以上を削除しても、つまりmp3で112kbpsまで圧縮しても高音域の聞え方に影響はない。ただし、抽出した音が聞えたことは事実。

15.8kHz以上を抽出。mp3の128kbpsの高音域で削除されている音です。
    
もはや、聞えると思いこんでも聞えない。mp3で128kbpsまで圧縮したとき、その高音域で削除した音はすべて聞こえない音。

@−A mp3とCD音源との差分の抽出
まず差分の説明です。音楽Aがあるとします。その音楽Aを位相反転させた音楽を音楽Bとします。それらを同時に再生すると音が消えるという現象が起こります。この現象を使って、WAVと逆相のMP3を同時に再生したら圧縮された音(差分)が浮き出てくるんじゃないかという発想ですが、この「同時に流す」が難しい。audacityでWAVと逆相WAVを同時に流すと音が消えることは確認できますが、そこから故意に0.00001秒ずらしただけで音が出てしまいます。こんな感じです。
 「music1-WAV×WAV(位相反転)時間差0.00001秒」再生
今回の差分の抽出方法は、audacityの最小編集単位の0.00001秒ずつ調整して音量が最小になったものを差分としています。「故意に0.00001秒ずらした音」よりも小さい音で抽出できたので、高精度な差分に仕上がっていると思いますが、0.00001秒未満の誤差が無いとも言い切れない。正真正銘の差分ではないかもしれないので、この実験の信用性は高くないかもしれない。本音を言うと苦労してせっかく「差分みたいの」だしてみたから試しに聞いて欲しいということです。

本題に戻ります。WAVファイルとMP3ファイルを使って、CD音源からMP3へ圧縮された音(差分)の抽出を試みました。
○music1(バンド演奏曲)の2分〜2分30秒を使います。
「music1-CD原音」再生
以下にmusic1のWAVとMP3各ビットレートの差分モドキを抽出し列挙します。
「WAVとMP3−96kbpsの差分」 「WAVとMP3-112kbpsの差分」 「WAVとMP3-128kbpsの差分」 「WAVとMP3-160kbpsの差分」
「WAVとMP3-192kbpsの差分」 「WAVとMP3-224kbpsの差分」 「WAVとMP3-256kbpsの差分」 「WAVとMP3-320kbpsの差分」

○music2(バラード曲)を使います。
「music2-CD原音」 「music2-WAV×WAV(位相反転)誤差0.00001秒」
「music2-WAVとMP3-96kbpsの差分」 「music2-WAVとMP3-112kbpsの差分」 「music2-WAVとMP3-128kbpsの差分」

○music3(クラシック曲)の差分
「music3-CD原音」 「music3-WAV×WAV(位相反転)誤差0.00001秒」
「music3-WAVとMP3-96kbpsの差分」 「music3-WAVとMP3-112kbpsの差分」

なんだかよくわかりませんでしたが、以下に、各ビットレートの差分における「200Hz」「1000hz」「3000hz」「6000hz」(2分0秒)の音圧を表にまとめ示します。

  mp3差分音圧(db) music1
 kbps|Hz  200 1000  3000  6000 
 原音 -11  -27  -36  -42 
96  -41  -45  -50  -53 
112  -41  -45  -50  -53 
128  -42  -46  -51  -53 
160  -42  -47  -50  -53 
 192  -44 -48  -52  -55 
 224 -46  -50  -54  -57 
 256 -47  -51  -56  -59 
320  -49  -53  -58  -61 

原音と差分の差と倍率を示します。

  CD音源とmp3差分の差(db) music1
 kbps|Hz  200 1000  3000  6000 
 原音 0 0 0 0
96  -30(3%) -18(10%) -14(15%) -11(30%)
112  -30(3%) -18(10%) -14(15%) -11(30%)
128  -31(3%) -19(10%) -15(15%) -11(30%)
160  -31(3%) -20(10%) -14(15%) -11(30%)
 192  -33(3%) - 21(10%)  -16(15%)  -13(25%)
 224  -35(2%)  -23(10%)  -18(11%) - 15(18%)
 256 - 36(2%) - 24(6%)  -20(10%)  -17(11%)
320  -38(1%) -26(10%) -22(10%) -19(10%)

これはmusic1を分析したものですが、music2/music3において分析した結果も同様なものでした。

<mp3解析まとめ>
mp3では、CD音源を100%とした場合、差分(圧縮された)音圧は最大で30%であることが分かった。
聞え方にダイレクトに作用したのは高い周波数帯での大幅な削除によるもので、11.4khz以上を削除すると明らかな劣化を感じ、13.5khz〜15.8khzの部分はピックアップすれば聞えるが全体に紛れたら判別は困難で、15.8khz〜22khzにもなると単一で取り出しても聞えないという結果が得られた。
13.5khz以上を削除しても音質劣化の原因にならない事が分かった。
また、差分(圧縮)音圧30%以下では音質劣化は起こらない事もわかった。

@−B mp3のおける最適ビットレート
ただCD同等に音楽を聴ければいいのであれば13.4khz以下のカバーで十分なので「MP3-112kbps」で最小十分。さらに微かに聞えるかもしれない音を補完し、空気感をも楽しんでいる雰囲気を味わいたいなら15.8khz以下をカバーして「MP3-128kbps」で最小十分ではないでしょうか。

 要求別、最適ビットレート   MP3 
CD同等の音楽が聴ければいい  112kbps
 空気感をも楽しむ気分を味わいたい人(推奨)  128kbps

・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
Aatrac[.oma]の解析

A−@ atracの高周波帯の削除された音の再現

Atracファイル形式の最適ビットレートを検討します。ファイルはX-アプリでwav形式に変換したものを利用しています。
以下にmusic1での2分0秒〜2分5秒をサンプリングしたビットレート毎の周波数解析を挙げます。
  

 

  

 atrac  高音域の圧縮対象
 atrac320/352 21.3khz以上
 ・・・  -
 atrac160kbps 16.5kHz以上 
atrac96〜128kbps   15.3kHz以上
atrac64kbps  15kHz以上 
 atrac48kbps 13.0khz以上(ただし13.0khz〜13.7Khzの圧縮率は-15db) 

atracでは13khzと15kHzを節目にしてるようだ。聞き比べます。
まず13khz付近からの圧縮について
「music1CD原音」 「13.0khz以上(ただし13.0khz〜13.7Khzの圧縮率は-15db)を抽出した音」 
「13.7khz(ただし13.0khz〜13.7Khzの圧縮率は-15db)以下を抽出した音」
13khz付近以上を抽出した音は、しっかり聴きとれます。
ランダム化比較聞き比べでも、13.7khz以下のみでは若干の高音の鳴りの弱さを判別できます。
これにより、13kHz以上を削除してしまうと(atrac48まで圧縮してしまうと)CDと判別できてしまうことがわかりました。
music1のatrac48での高音の不足感はこのためだと思われます。
次に15.3khz以上について
「music1CD原音」 「15.3kHz以上を抽出した音」 「15.3kHz以下を抽出した音」
15.3kHz以上で抽出した高音は聞えない。
15.3kHz以上が圧縮されても聞え方に影響はないようです。
ちなみに15.0khz以上について
「15.0kHz以上を抽出した音」
聴きとれません。
よって、15khz以上は聞きとれないので、64khzまで圧縮しても高音域での音質劣化は起こらない。

A−A atracとCD音源との差分の抽出
一応差分の音を挙げます。
「atrac48とwavの差分」「atrac64とwavの差分」「atrac96とwavの差分」「atrac128とwavの差分」・・・「atrac352とwavの差分」
以下に、各ビットレートの差分における「200Hz」「1000hz」「3000hz」「6000hz」(2分0秒)の音圧を表にまとめ示します。

  atracの差分音圧(db) music1
 kbps|Hz  200 1000  3000  6000 
 原音 -11  -27  -36  -42 
48 -32  -43  -42 -43
 64 -36  -48  -43  -44 
96 -45 -54 -50 -48
128  -45 -57 -55 -51
 ・・・  -
320 -45 -57 -69 -69
352 -45 -57 -69 -71

  原音とatrac差分の差(db) music1
 kbps|Hz  200 1000  3000  6000 
 原音 0 0 0 0
48 -21(10%) -16(15%) -6(50%) -1(100%)
 64 -25(5%) -21(10%) -7(40%) -2(83%)
96 -34(2%) -27(5%) -14(15%) -6(50%)
128  -34(2%) -30(3%) -19(10%) -9(30%)
320 -34(2%) -30(3%) -33(3%) -27(5%)
352  -34(2%) -30(3%) -33(3%) -29(3%)

<atrac解析のまとめ>
検討1にてatrac48/64kbpsの時、クラシックの「弦をはじく音が弱かった」件について検討します。
上の表は、原音を基準とした圧縮された音(差分)の比率を示しています。
その表をみると、48kbps/64kbpsにおいて、圧縮音が原音の100%近くある周波数帯があることが分かります。また、検討1で若干音の弱さを判別できた96kbpsにおいても50%を示していて、この割合の推移と「検討1で実際聞えた感じ」に関連性を感じます。
という推測を基にすると、圧縮音が原音の83%以上になると、聞え方に明らかな影響を及ぼし、50%程度で音質劣化を感じられるかどうかの瀬戸際で、mp3の解析から30%以下なら判別は困難であることが示唆されます。
高い周波数帯から、13.0khzから圧縮してしまうと明らかな音質劣化が起こり、15.0khz以上ではピックアップしても聞えず音質劣化に全く影響が無いことがわかった。

A−B atracの最適ビットレート
atracにおいては、15.3khz以下をカバーしていて圧縮音圧比率30%以下に抑えられている128kbpsで最小十分のビットレート。

 最適ビットレート   Atrac 
CD同等の音質と空気感も十分  128kbps

・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
Bwmaの解析

B−@ wmaの高周波数帯での圧縮解析
music1の2m0sの周波数帯域を解析した結果、以下の結果を得られました。

 wma  高音域の圧縮対象
 wma192kbps  18.7khz以上
 wma160kbps  18.7khz以上
wma128kbps 15.8khz以上 
wma96kbps   15.2khz以上
wma64kbps  12.3khz以上 
wma48kbps 11.8khz以上 

「11.8khz以上の抽出音」 「12.3khz以上の抽出音」
どちらも良く聞こえるので、音質劣化の原因になりそうです。
検討1におけるmusic1の音質劣化はここに起因するものと思われます。

B−A wmaとwavの差分の分析

  wmaの差分音圧(db) music1
 kbps|Hz  200 1000  3000  6000 
 原音 -11 -27 -36 -43
48 -33 -41 -45 -47
64 -33 -42 -45 -48
96 -42 -45 -46 -49
128  -43 -46 -48 -49
160 -44 -48 -48 -50
 192  -44 -53  -53  -57 

  原音とwma差分の差(db) music1
 kbps|Hz  200 1000  3000  6000 
 原音 0 0 0 0
48 -22(8%) -14(18%) -9(36%) -4(60%)
64 -22(8%) -15(16%) -9(36%) -5(60%)
96 -31(3%) -18(11%) -10(30%) -6(50%)
128  -32(3%) -19(11%) -12(25%) -6(50%)
160 -33(3%) -21(10%) -12(25%) -7(36%)
 192 -33(3%)  -26(5%)  -17(15%)  -14(18%) 

<wmaの解析まとめ>
高音解析から新たに12.3khz以上で削除すると明らかな音質劣化が起こりそうであることがわかった。これまでの考察から高い周波数での音質劣化の境界線は12.3〜13.5khzどこか。
また、圧縮音圧比率60%について、音質劣化との関連性を調査中、、、

B−B wmaの最適ビットレート
wmaにおける最小十分は、15khz以下をカバーしていて、圧縮音の比率が50%であるwma-96kbpsとなります。しかし、atracにおいて50%で劣化を判別していることから、今回の検討環境では再現できなかっただけで、曲調次第では劣化が起こらないとも言えません。とすると、さらに安心を得るためには36%以下の160kbpsが妥当なのかもしれません。

 最適ビットレート   wma 
CD同等に聴ければいい  96kbps
 空気感をも楽しむ気分を味わいたい人  160kbps

・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
Caacの分析

C−@ aacでの高周波数帯の抽出と分析

  

  

 

ビットレートごとの、高い周波数での圧縮の様子を以下にまとめます。

 aac  高音域の圧縮対象
aac160kbps  16.0khz以上
aac128kbps 15.5khz以上 
aac96kbps   14.2khz以上
aac80kbps  14.2khz以上 

「14.2khz以上の抽出音」
聞えませんので、14.2khz以上の削除は音質劣化の影響にならないようです。

C−A aacとwavの差分抽出と分析

  aacの差分音圧(db) music1
 kbps|Hz  200 1000  3000  6000 
 原音 -11 -27 -36 -42
80 -38 -42 -45 -45
96 -38 -44 -46 -46
128  -39 -45 -48 -48
160 -39 -46 -48 -48
 192 -39  -54  -54  -57 
 256 -39  -54  -57  -60 
320  -39  -54  -58  -63 

 原音とaac差分の差(db) music1
 kbps|Hz  200 1000  3000  6000 
 原音 0 0 0 0
80 -27(5%) -15(18%) -9(36%) -3(70%)
96 -27(5%) -17(15%) -10(30%) -4(60%)
128  -28(4%) -18(11%) -12(25%) -6(50%)
160 -28(4%) -19(11%) -12(25%) -6(50%)
 192  -28(4%  -27(4%) -18(11%)  -15(18%) 
 256  -28(4% -27(4%)  -21(10%)  -18(11%)
 320  -28(4%  -27(4%)  -22(10%)  -21(10%)

<AACの分析まとめ>
14.2khz以上は聞えない事がわかった。
70%もの圧縮音圧比率があっても音質劣化を感じられなかったことを現在調査中。

C−B aacの最適ビットレート
80kbpsの6000hzで圧縮された音の比率が70%にもなっているのに、検討1でacc80kbpsの劣化感を感じなかったことを考察したい。
wikipediaによるとaacはMP3より1.4倍圧縮効率がいいことになってる。
計算してみると、80kbps×1.4=112kbpsとなり、aac80kbpsとmp3-112kbpsの音質は同等になることになるが、これは検討1の結果とも一致するので、一応wikipediaを信じてみて考察を進める。
AACでは同音質でMP3の1.4倍圧縮できる。この1.4倍の比率は差分音圧にも表れていて、mp3とaacの差分音圧におおよそ1.4倍の相関がみられるので、70%はその1.4倍の結果だとして計算してみると、70%×1/1.4≒50%。
となり、AACでの圧縮比率70%は、MP3での圧縮比率50%に相当することになる。
とすると、いままでの考察から「比率50%を下回る圧縮は聞き分けられない」とした今までの考察と合致する。
以上により、aac80kbpsの音質はCD音質と同等であるといえる。
しかし、atracの聴き比べにおいて圧縮比率50%の音質劣化を聞き分けられた事実もあり、mp3/atrac/wmaでは50%、aacではその1.4倍の70%あたりが音質劣化を感じられるかどうかの境界である可能性が高い。本検討では再現できなかっただけで、曲調や体調次第で劣化を感じてしまうものもあるかもしれないので、mp3/atrac/wmaでは40%以下、aacでは56%以下に圧縮比率を抑えた方が、無難ではないでしょうか。
とすると、AACの推奨ビットレートは128kbpsとなります。

 要求別、最適ビットレート   AAC 
CD同等の音楽が聴ければいい  80kbps
 空気感をも楽しむ気分を味わいたい人(推奨)  128kbps

・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
Dhe-accの分析

D−@ he-aacの高周波数帯域の抽出と分析

he- aac  高音域の圧縮対象
he-aac64kbps 20khz以上
he-aac48kbps 16.1kHz以上 
he-aac40kbps   16.1khz以上
he-aac32kbps  14.8khz以上 

D−A he-aacとwavから差分抽出と分析

  he-aacの差分音圧(db) music1
 kbps|Hz  200 1000  3000  6000 
 原音 -11 -27 -36 -42
32 -32 -37 -42 -38
40 -33 -39 -44 -48
48 -35 -39 -44 -46
64 -36 -42 -46 -49

 原音とhe-aac差分の差(db) music1
 kbps|Hz  200 1000  3000  6000 
 原音 0 0 0 0
32 -21(10%) -10(30%) -6(50%) +4(167%)
40 -22(10%) -12(30%) -8(40%) -6(50%)
48 -24(5%) -12(30%) -8(40%) -4(60%)
64 -25(5%) -15(15%) -10(30%) -7(50%)

D−B he-aacの最適ビットレート
32/40kbpsではひどい電子音を聞かされたが、ここからそれを裏付ける根拠を得ようとする以前に、6000hzでのデータがチグハグです。
調べてみたところ、he-aacでは、低い周波数帯を元に高い周波数帯を合成しているらしい。
データがチグハグになってしまったのは、合成された「似て非なる音」をWAVから差し引いたためなのだろう。
検討1において劣化を感じなかった64kbpsで一応CD同等ということにするけれど、ただ音を間引くに止まらず、一度削除した音を予測して創作してしまっては、もはやオリジナルとは別物ではないでしょうか。感動を追及するには不都合な気がする。

・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・

<検討3>SONYが開示している「ATRACの音質評価」についての評価
atracと他の音楽ファイルの音質比較実験がSONYのサイト内にあります。
「Atrac3plusの音質に関する主観評価実験報告書」・・・日本語版
イギリスとドイツでの視聴テスト結果
これらの結果をまとめると、
@「atrac3plus-64kbpsとmp3-128kbpsの音質は同等」
A「atrac3plusは64kbps以下においてwma/aac/mp3より優れている」
B「atrac3plus64kbpsとatrac3-132kbpsは同等」らしい。
しかし、この日本、イギリス、ドイツの実験結果が非常に酷似していることに非常に違和感を感じます。
主観を評価する実験において、日本、イギリス、ドイツの実験が酷似するための条件は2つ。
T・比較対象に明らかな違いがあり、誰が聴いても同じ結果がでる
U・SONY側の作為が加わった。
「同等」付近でさえ三者三様こぞって「若干atracがいい」によっているので、Uの可能性が濃厚だと思います。
しかも、このSONYの不可解な結果は、本検討における結果とも相違があります。
本検討では、ランダム化比較による厳密な聴き比べを行ったところ、
@´「atrac3plus-128kbpsとmp3-112kbpsの音質は同等」
A´「atrac3plusは、64kbps以下においてmp3よりは優れているが、wma/he-aacより劣る」
B´「atrac3plus-128kbpsとAAC80kbpsの音質は同等」であることを認めました。
これが真実です。
また、「Batrac3plus64kbpsとatrac3-132kbpsは同等」とSONY側がいうのだから信じますが、とするとX-アプリでのstrac3-132kbpsの選択肢がなぜあるのか理解できませんが、、、。

・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・

<検討4>Walkmanに適切なファイル形式は?
Walkmanで再生するにあたり適切な音声ファイル形式を考えます。
一つの基準としては、曲と曲のつながりに「間」が空くかどうかではないでしょうか。(ギャップレス再生とかシームレス再生というらしい)
ミスチルのアルバム「深海」より、シーラカンスから手紙は一続きの構成になっています。
以下に、どのファイル形式で間が空いてしまうか調べました。X-アプリ、nw-f887(2014年10月発売)における結果も併記します。

 曲間の「間」の有無 atrac  mp3  wav  wma  acc  he-acc 
walkman-nw-s765  無  アリ  無  アリ  アリ アリ 
 X−アプリ(ver5.1.00.09261)  無 アリ  無  アリ  無  無 
 walkman-nw-f887  無  ほぼ無  無 1秒程アリ   無 無 

おそらく、2012年10月よりsonyのmoraで提供するファイル形式をatracからaacに変更した前後で、最適化した音楽ファイル形式が変更されている感じがあります。12年10月以前に発売のwalkmanはatracとwavしかスムーズな曲の移行ができないけれど、それ以降発売のWALKMANでは、AAC/HE-AACさらにはMP3でも曲と曲のつながりはなくなっていると思われますが、ご確認お願いします。

・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・

<結論>
@「ただCD同等の音だけが聴ければいい」場合の最小十分ビットレートを考えます。
上記要件を満たすための条件は「12.3khz〜13.5khzの音をそぎ落とすと明らかに劣化を感じる」「圧縮された音の音圧が原音の60%を超えると明らかな劣化を感じる」ことから、以下のものが考えられます。
@)検討1においてCD原音と判別不可であったこと
A)13.5kHz以下をしっかりカバーしていること
B)圧縮された音の音圧が原音の50%(AACでは70%)以下に抑えられている
これら条件を満たすビットレートは、以下の通り
CD同等音質最小ビットレート=MP3@112kbps=Atrac@128kbps=WMA@96kbps=AAC@80kbps=HE-AAC@64kbps

A「空気感をも聴き逃したくない」ちょっと欲張りな方のための最小十分ビットレートを考えます(推奨)。
より感動の可能性を残すために、「鳴ってるけど曲全体と一緒に聞くと聞こえない音」を極力残してあるビットレートの最小値を探ります。
検討結果から「単独で抽出して聴いて聞こえる境界は14.2khz」「圧縮された音の音圧が原音の50%の時、ATRACで辛うじて判別できてしまった事から、50%程度が判別可能な境界と判断し、40%以下を判別不可」と仮定した場合、上記要件を満たす条件は以下のものが考えられます。
@)14.2kHz以下をしっかりカバーしている
A)圧縮された音の音圧が原音の40%(AACでは56%)以下に抑えられている
これらの条件を満たすビットレートは、以下の通り
空気感をも楽しみたい人向け最小ビットレート(推奨)=MP3@128kbps=Atrac@128kbps=Wma@160kbps=AAC@128kbps
HE-AACはエレクトリカル過ぎて判断できません。

Bまた検討4より、曲間に間が出来ないのはAtracとwav。

以上のことを下の表にまとめます。
注意>ただし念を押しますが、この考察は、walkmanの空き容量が心もとないことと、イヤホンで聞くことが前提であるので、WALKMANの容量に余裕があるなら、もしくはスピーカーなどで体で聞く場合には、非可逆圧縮の最高ビットレートのatrac352kbps(CDの1/4)や可逆圧縮のsony製Atrac advanced lossless(AAL)(CDの半分)、WAV形式(CDと同じデータ)、さらにはハイレゾの選択も楽しみの可能性を広げるかもしれない。

 最適ビットレート   MP3    ATRAC[.oma] WMA  AAC  HE-AAC 
CD同等音質最小ビットレート  112kbps  128kbps 96kbps  80kbps  64kbps 
空気感をも楽しみたい人向け最小ビットレート(推奨)  128kbps 128kbps  160kbps  128kbps 

WALKMANギャップレス再生対応圧縮形式(曲と曲がスムーズに繋がる圧縮形式)
 2012年10月頃以前に発売のWALKMAN(推測)  ATRAC/WAV
 2012年10月頃以降に発売のWALKMAN(推測)  ATRAC/WAV/MP3/AAC/HE-AAC

・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・

<評論>SONYに問い合わせたところ、担当者の主観としてatrac64kbps〜atrac352kbpsの音質の違いは、感じられないとのことでした。担当者の主観とありますが、SONYの窓口での回答ですから、ほぼSONYとしてもそのような認識なのだと解しています。sonyの資料「atracの音質評価」によるとatrac3plus@64kbpsとmp3@128kbpsの音質は同等だとSONYは思っているようなので、mp3@128kbps〜320kbpsもまた音質に違いは無いとSONYは考えているのだと思います。そして、今回の客観的検討においても、SONYの回答とほぼ同等の結果が得られました。MP3もATRACもAACも、128kbpsでCD同等の音質であることは、確からしいのではないでしょうか。
とすると、各ファイル形式が、320/352kbps程度まで用意しているビットレートは、純粋無垢な一般ユーザーには不必要なもので、「気のせいで分かった風な人を満足させるため」だけのものということになります。ソニーもMPEGも「分かった風な人」を敵に回したくないと思うので真意を教えてくれるはずありませんが、ソニーのメール回答と本検討から推測するとそういうことになってしまいます。わたくしの悪意のある妄想ではありません。
坂本龍一さんが「mp3は320kbpsくらいで聴けるレベル」とおっしゃったそうですが、それは命がけでやってる程の方のみ判別可能な領域かもしれず、純粋な普通の音楽愛好家には判別のかなわない過ぎたものだということを、本検討とソニーの回答は示唆しています。

今回の検討より、ネット上で見受けられる、低ビットレートだとシンバルがシャリシャリするとか、曲がジャリジャリするとか、粗いとか狭いとかいうのは、気のせいなんではないかという疑念が益々高まりました。どの音楽でも、一部くすんでいたり、逆に一部凄くクリアーだったり「良い面」と「悪い面」があると思う。世の中の音質を分かった風な方は、高ビットでは「良い面」を聴き音がいいといい、低ビットでは「悪い面」を聴き音が悪いと言って、分かった風になっているだけのような気がしてならない。ぜひこの頁の検討実験1をやってほしい。ほとんどの方は、盲検化したうえで聴き比べると、実は聞き分け出来てなかったことに気づくのではないでしょうか。僕がそうだったように。

とは言ったものの、160kbpsを超えた高ビットレートは、どうせ聞き分けられないんだから無駄という結論を得ても、それでも削除されてしまった「聞えない音」の存在が気になる、、、
例えば「塩とダシ」の関係を思い出してほしい。ダシはそれ自体飲んでもうまくない。しかし、一つまみでも塩を入れると一気にうまくなる。
この「聞えない音」はこの「ダシ」に相当するのではないだろうか。そして聞える音が塩である。
今の僕にはこのダシである「聞えない音」を感じられないけど、これを感じられた時、今後ハイレゾなんかもたのしめるのかもしれない。
と思うので、こんなにブツブツタラタラ書いてきたくせに僕は、atrac@352kbpsで取り直しました。坂本龍一に近づくために!また、本検討の感じから、WMAもAACも高音をいじってる気がしてならないので、MP3もいいけれど、「意図的に色付けを行わない」を標榜しているATRACを信じます!がんばれATRAC!

一応、ここでの結論は上記の様にするけれど、やはりCDオリジナル音源や、可逆圧縮技術は気になります。今後はこの聞えない音に注意しながら楽しむと、なにか新たな音楽のおいしさに出会えるかもしれない(*^ワ^*)

(C)GOTO Takasi